New architecture GPUs like A100 are now equipped with multi-instance GPU (MIG) technology, which allows the GPU to be partitioned into multiple small, isolated instances. This technology provides more flexibility for users to support both deep learning training and inference workloads, but efficiently utilizing it can still be challenging. The vision of this paper is to provide a more comprehensive and practical benchmark study for MIG in order to eliminate the need for tedious manual benchmarking and tuning efforts. To achieve this vision, the paper presents MIGPerf, an open-source tool that streamlines the benchmark study for MIG. Using MIGPerf, the authors conduct a series of experiments, including deep learning training and inference characterization on MIG, GPU sharing characterization, and framework compatibility with MIG. The results of these experiments provide new insights and guidance for users to effectively employ MIG, and lay the foundation for further research on the orchestration of hybrid training and inference workloads on MIGs. The code and results are released on https://github.com/MLSysOps/MIGProfiler. This work is still in progress and more results will be published soon.
translated by 谷歌翻译
Depression is a leading cause of death worldwide, and the diagnosis of depression is nontrivial. Multimodal learning is a popular solution for automatic diagnosis of depression, and the existing works suffer two main drawbacks: 1) the high-order interactions between different modalities can not be well exploited; and 2) interpretability of the models are weak. To remedy these drawbacks, we propose a multimodal multi-order factor fusion (MMFF) method. Our method can well exploit the high-order interactions between different modalities by extracting and assembling modality factors under the guide of a shared latent proxy. We conduct extensive experiments on two recent and popular datasets, E-DAIC-WOZ and CMDC, and the results show that our method achieve significantly better performance compared with other existing approaches. Besides, by analyzing the process of factor assembly, our model can intuitively show the contribution of each factor. This helps us understand the fusion mechanism.
translated by 谷歌翻译
This study proposes an improved end-to-end multi-target tracking algorithm that adapts to multi-view multi-scale scenes based on the self-attentive mechanism of the transformer's encoder-decoder structure. A multi-dimensional feature extraction backbone network is combined with a self-built semantic raster map, which is stored in the encoder for correlation and generates target position encoding and multi-dimensional feature vectors. The decoder incorporates four methods: spatial clustering and semantic filtering of multi-view targets, dynamic matching of multi-dimensional features, space-time logic-based multi-target tracking, and space-time convergence network (STCN)-based parameter passing. Through the fusion of multiple decoding methods, muti-camera targets are tracked in three dimensions: temporal logic, spatial logic, and feature matching. For the MOT17 dataset, this study's method significantly outperforms the current state-of-the-art method MiniTrackV2 [49] by 2.2% to 0.836 on Multiple Object Tracking Accuracy(MOTA) metric. Furthermore, this study proposes a retrospective mechanism for the first time, and adopts a reverse-order processing method to optimise the historical mislabeled targets for improving the Identification F1-score(IDF1). For the self-built dataset OVIT-MOT01, the IDF1 improves from 0.948 to 0.967, and the Multi-camera Tracking Accuracy(MCTA) improves from 0.878 to 0.909, which significantly improves the continuous tracking accuracy and scene adaptation. This research method introduces a new attentional tracking paradigm which is able to achieve state-of-the-art performance on multi-target tracking (MOT17 and OVIT-MOT01) tasks.
translated by 谷歌翻译
很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
translated by 谷歌翻译
量子系统的许多基本属性都被其哈密顿和基态捕获。尽管基态制备(GSP)具有重要意义,但对于大规模的哈密顿人来说,这项任务在经典上是棘手的。发挥现代量子机的力量的量子神经网络(QNN)已成为征服此问题的领先协议。因此,如何增强QNN的性能成为GSP中的关键主题。经验证据表明,具有手工对称的Ansatzes的QNN通常比不对称Ansatzes的QNN具有更好的训练性,而理论解释却没有被探索。为了填补这一知识差距,我们在这里提出了有效的量子神经切线核(EQNTK),并将这一概念与过度参数化理论联系起来,以量化QNNS趋向全球最佳OPTA的融合。我们发现,对称Ansatzes的进步归因于其较大的EQNTK值,其有效尺寸很小,这要求很少的参数和量子电路深度达到过度参数化的制度,允许良性损失景观和快速收敛。在EQNTK的指导下,我们进一步设计了一种对称修剪(SP)方案,可以自动从过度参数化和不对称的对称的ANSATZ量身定制对称的ANSATZ,以极大地提高QNN的性能,而汉密尔顿的显式对称信息是不可用的。进行了广泛的数值模拟,以验证EQNTK的分析结果和SP的有效性。
translated by 谷歌翻译
为了在盲图超级分辨率(SR)上取得有希望的结果,一些尝试利用低分辨率(LR)图像来预测内核并改善SR性能。但是,由于不可用的现实世界模糊内核,这些监督的内核预测(SKP)方法是不切实际的。尽管提出了一些无监督的降解预测(UDP)方法来绕过此问题,但\ textIt {contercestency}之间的降解嵌入和SR功能之间仍然具有挑战性。通过探索降解嵌入与SR功能之间的相关性,我们观察到共同学习内容和降解感知功能是最佳的。基于此观察结果,提出了一个名为CDSR的内容和退化的SR网络。具体而言,CDSR包含三个新建立的模块:(1)将基于重量的编码器(LPE)应用于共同提取内容和降解功能; (2)采用基于域查询的基于注意力的模块(DQA)来适应不一致; (3)基于密码的空格压缩模块(CSC),可以抑制冗余信息。对几个基准测试的广泛实验表明,即使与最先进的SKP方法相比,提议的CDSR的表现都优于现有的UDP模型,并在PSNR和SSIM上实现竞争性能。
translated by 谷歌翻译
卷积神经网络(CNN)已被证明在肺结核检测领域非常有效。但是,现有的基于CNN的肺结核检测方法缺乏捕获长期依赖性的能力,这对于全局信息提取至关重要。在计算机视觉任务中,非本地操作已被广泛使用,但是对于3D计算机断层扫描(CT)图像,计算成本可能很高。为了解决这个问题,我们提出了一个长的短切片网络(LSSANET),用于检测肺结核。特别是,我们开发了一种称为长短切片组(LSSG)的新的非本地机制,该机制将紧凑的非本地嵌入分裂为一个短距离切片,分组为一和长距离切片。这不仅减轻了计算负担,而且还可以在切片和整个功能图中保持长期依赖性。提出的LSSG易于使用,可以插入许多肺结核检测网络中。为了验证LSSANET的性能,我们将基于2D/3D CNN的几种最近提出的竞争检测方法进行比较。大规模PN9数据集的有希望的评估结果证明了我们方法的有效性。代码在https://github.com/ruixxxx/lssanet上。
translated by 谷歌翻译
几乎没有零件分割的目的是仅给出几个带注释的样本,将对象的不同部分分开。由于数据有限的挑战,现有的作品主要集中在学习分类器上,而不是预先训练的功能,无法学习针对零件细分的任务特定功能。在本文中,我们建议在“预训练” - “微调”范式中学习特定于任务的功能。我们进行及时设计以减少预训练任务(即图像生成)与下游任务(即部分分段)之间的差距,以便可以利用生成的GAN先验进行分割。这是通过将零件分割图投影到RGB空间中并在RGB分割图和原始图像之间进行插值来实现的。具体而言,我们设计了一种微调策略,以逐步将图像发生器调整到分割生成器中,在该机构中,生成器的监督通过插值从图像到分割图各不等。此外,我们提出了一个两流体系结构,即一个分割流以生成特定于任务的特征,以及一个图像流以提供空间约束。图像流可以视为自我监管的自动编码器,这使我们的模型能够从大规模的支持图像中受益。总体而言,这项工作是试图通过及时设计来探索一代任务和感知任务之间的内部相关性。广泛的实验表明,我们的模型可以在几个部分分割数据集上实现最新性能。
translated by 谷歌翻译
最近,通过协作推断部署深神经网络(DNN)模型,该推断将预训练的模型分为两个部分,并分别在用户设备(UE)和Edge Server上执行它们,从而变得有吸引力。但是,DNN的大型中间特征会阻碍灵活的脱钩,现有方法要么集中在单个UE方案上,要么只是在考虑所需的CPU周期的情况下定义任务,但忽略了单个DNN层的不可分割性。在本文中,我们研究了多代理协作推理方案,其中单个边缘服务器协调了多个UES的推理。我们的目标是为所有UES实现快速和节能的推断。为了实现这一目标,我们首先设计了一种基于自动编码器的轻型方法,以压缩大型中间功能。然后,我们根据DNN的推理开销定义任务,并将问题作为马尔可夫决策过程(MDP)。最后,我们提出了一种多代理混合近端策略优化(MAHPPO)算法,以解决混合动作空间的优化问题。我们对不同类型的网络进行了广泛的实验,结果表明,我们的方法可以降低56%的推理潜伏期,并节省多达72 \%的能源消耗。
translated by 谷歌翻译
心肌活力的评估对于患有心肌梗塞的患者的诊断和治疗管理是必不可少的,并且心肌病理学的分类是本评估的关键。这项工作定义了医学图像分析的新任务,即进行心肌病理分割(MYOPS)结合三个序列的心脏磁共振(CMR)图像,该图像首次与Mycai 2020一起在Myops挑战中提出的。挑战提供了45个配对和预对准的CMR图像,允许算法将互补信息与三个CMR序列组合到病理分割。在本文中,我们提供了挑战的详细信息,从十五个参与者的作品调查,并根据五个方面解释他们的方法,即预处理,数据增强,学习策略,模型架构和后处理。此外,我们对不同因素的结果分析了结果,以检查关键障碍和探索解决方案的潜力,以及为未来的研究提供基准。我们得出结论,虽然报告了有前途的结果,但研究仍处于早期阶段,在成功应用于诊所之前需要更深入的探索。请注意,MyOPS数据和评估工具继续通过其主页(www.sdspeople.fudan.edu.cn/zhuangxiahai/0/myops20 /)注册注册。
translated by 谷歌翻译